Nous allons tester la normalité des distributions, afin d’identifier un éventuel effet “commune”.
Si les comportements des bénéficiaires sont les mêmes dans chaque commune, alors les distributions devraient être normales.
H0 : “La distribution suit une loi normale”.
Etant donné que je fais 31 tests, j’utilise la correction de Benjamin-Hochberg :
Seules 2 des 31 variables sont normalement distribuées.
Je ne garde pas les communes ayant moins de 10 dossiers
Variables utilisées : “Type.Ancien.appareil”, “Usage.ancien.matériel”, “Nouveau.matériel”,“Type.combustible.nouveau.materiel”, “Usage.nouveau.matériel”, “majoration”, “cout_total_TTC, et”Motivation changement appareil”
J’enlève les variables représentant les modalités de type “autre”, “pas de réponse,”NA”, et une des modalités des variables devenues binaires (combustible, majoration)
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 7.2204644 45.127902 45.12790
## Dim.2 1.7488477 10.930298 56.05820
## Dim.3 1.5496476 9.685298 65.74350
## Dim.4 1.0782101 6.738813 72.48231
## Dim.5 0.9021525 5.638453 78.12076
## Dim.6 0.7131995 4.457497 82.57826
## Dim.7 0.7086008 4.428755 87.00702
## Dim.8 0.5117297 3.198311 90.20533
## Dim.9 0.4669744 2.918590 93.12392
## Dim.10 0.3404879 2.128049 95.25197
Les 6 premières dimensions expliquent plus de 80% de la variance, on gardera quand même les 10 premières pour les clusterings.
Il semble y avoir une légère séparation par territoire, sur les deux premières dimensions.
Pourcentage de variance expliquée par les différentes dimensions :
1ère dimension = très importante
Les variables de raisons de changement d’appareil, et le cout ttc des travaux ne semblent pas très importants. Les autres semblent toutes assez bien représentées par les deux premières dimensions. Il est difficile d’observer des clusters de variables par dimensions.
Les deux premières dimensions semblent bien séparer les communes urbaines des rurales
Le dendogramme semble suggérer de créer 2 clusters, voir 3.
La méthode k-means semble bien séparer les deux groupes, en particulier selon la première dimension.
Le groupe 1 semble être marqué par des taux forts de : anciens poêles, primes majorées, anciens et nouveaux usages principaux.
Le groupe 2 semble être marqué par des taux forts de : anciens foyers ouverts, anciens usages agrément, et de nouveaux et anciens usages d’appoint
##
## rural urbain
## 1 37 22
## 2 10 42
Deux groupes : un plus urbain, l’autre plus rurale mais pas mal de confusion rural urbain 1 37 22 2 10 42
Trois groupes : un urbain, un rural, un mixte
rural urbain
1 4 31 2 22 33 3 21 0
##
## 1 2
## rural 0.79 0.21
## urbain 0.34 0.66
##
## rural autonome très peu dense rural autonome peu dense
## 1 1 5
## 2 0 0
##
## rural sous faible influence d'un pôle rural sous forte influence d'un pôle
## 1 14 17
## 2 3 7
##
## urbain densité intermédiaire urbain dense
## 1 21 1
## 2 27 15
Groupe 1 = Rurales
Groupe 2 = rural sous faible influence d’un pôle, rural sous forte influence d’un pôle, urbain (principalement intermédiaire) Communes intermédiaires ?
Groupe 3 = urbain + rurale sous forte influence d’un pôle
##
## 1 2
## rural autonome très peu dense 1.00 0.00
## rural autonome peu dense 1.00 0.00
## rural sous faible influence d'un pôle 0.82 0.18
## rural sous forte influence d'un pôle 0.71 0.29
## urbain densité intermédiaire 0.44 0.56
## urbain dense 0.06 0.94
Calcul des odds ratio pour connaitre l’effet des modalités des types
de communes sur les groupes :
Un log(odds ratio) :
< 0 signifie que l’événement “être dans le groupe 2” est moins fréquent dans ce groupe par rapport à l’ensemble des autres, signifatif si la borne sup l’est aussi.
= 0 signifie que l’événement est aussi fréquent dans les deux groupes.
‘>’ 0 signifie que l’événement “être dans le groupe 2” est plus fréquent dans ce groupe par rapport à l’ensemble des autres, signifatif si la borne inf l’est aussi.
On ne peut pas calculer l’OR pour les communes peu dense et très peu dense car elles sont trop peu nombreuses.
Stable au cours du temps même si les taux sont un peu extrêmes en 2015 et en 2024 : pas l’année complète
Le tableau présente les différences de moyennes entre les deux groupes, pour les variables centrées réduites (cr) et brutes, ainsi que la proportion de variance de la variable expliquée par la séparation en groupes (X..epl).
## diff_inter_groupes_cr X..epl. diff_brute
## old_foyer_ouvert -1.20 36.47 -0.15
## old_insert_fermé 0.15 0.51 0.02
## old_Poêle 1.03 26.67 0.13
## old_appoint -1.24 38.91 -0.15
## old_principal 1.47 54.51 0.24
## old_agrément -1.20 36.14 -0.08
## new_Poêle 1.30 42.27 0.13
## Bûche -1.22 37.80 -0.16
## new_appoint -1.41 50.43 -0.21
## new_principal 1.43 51.78 0.21
## new_agrément -0.87 18.93 -0.01
## majorée 1.02 26.21 0.12
## cout_total_TTC 0.77 14.92 108.49
## montant_aide -0.62 9.41 -218.80
## confort 0.09 0.18 0.00
## Qualité_air 0.19 0.91 0.02
## économiser 0.81 16.57 0.07
Tests non paramétrique d’égalité des distributions de Wilcoxon : H0 : “égalité des lois”
Tests paramétriques d’égalité d’espérances, via ANOVA : H0 : “égalité des espérances”
Représentation des différences inter-groupe, en fonction des
résultats des tests :
## variables Diff_grp pval wilcoxon pval anova index
## 1 old_foyer_ouvert -1.20 2.912306e-11 5.521091e-12 1
## 2 old_insert_fermé 0.15 1.645223e-01 4.848721e-01 2
## 3 old_Poêle 1.03 3.384376e-09 1.234489e-08 3
## 4 old_appoint -1.24 2.253133e-11 8.838516e-13 4
## 5 old_principal 1.47 3.901128e-15 3.946495e-19 5
## 6 old_agrément -1.20 2.253133e-11 6.414021e-12 6
## 7 new_Poêle 1.30 1.018918e-11 4.876339e-14 7
## 8 Bûche -1.22 2.008165e-11 1.994845e-12 8
## 9 new_appoint -1.41 5.181826e-14 1.481152e-17 9
## 10 new_principal 1.43 8.008533e-15 4.835339e-18 10
## 11 new_agrément -0.87 2.736700e-06 2.821087e-06 11
## 12 majorée 1.02 1.675740e-09 1.579904e-08 12
## 13 cout_total_TTC 0.77 1.223404e-06 3.682373e-05 13
## 14 montant_aide -0.62 7.509227e-02 1.281470e-03 14
## 15 confort 0.09 3.914748e-01 6.564353e-01 15
## 16 Qualité_air 0.19 1.761098e-01 3.609179e-01 16
## 17 économiser 0.81 1.378007e-05 1.311369e-05 17
Groupe 1 : (+ rural)
## [1] "old_insert_fermé" "old_Poêle" "old_principal" "new_Poêle"
## [5] "new_principal" "majorée" "cout_total_TTC" "confort"
## [9] "Qualité_air" "économiser"
Majorés, chauffage principal, raisons changement : plus de modalités / croisement, taux de poêle nouveau ++, ancien : plus d’insert et de poêle que le groupe 2
Groupe 2 : (+ urbain)
## [1] "old_foyer_ouvert" "old_appoint" "old_agrément" "Bûche"
## [5] "new_appoint" "new_agrément" "montant_aide"
Non majorés, ont un usage moins important de leur appareil (moins dépendants), taux de buche + important
Autres représentation graphique, les variables où le texte est en
gris sont celles où il y a égalité des distributions. Les points bleus
sont ceux où la moyenne du groupe 2 est plus forte que celle du groupe
1, et inversement pour les rouges :
## diff_inter_groupes_cr X..epl. diff_brute
## n -0.86 18.51 -44.95
## superficie_foret 0.26 1.72 205.48
## taux_forets 0.13 0.39 2.67
## évolution_nb_logements -0.57 8.16 -2.59
## Densité_pop -0.57 8.18 -605.12
## Part_résidences_principales_loc -0.47 5.42 -5.65
## part_maisons 0.68 11.44 16.50
## part_résidences_principales -0.65 10.63 -5.87
## objectifs_2022 -0.75 14.12 -62.80
## nb_ménages_fiscaux -0.45 5.03 -3163.50
## nb_personnes_menages_fiscaux -0.49 5.82 -6582.37
## mediane_niveau_vie -0.73 13.30 -2510.76
## taux_dossiers_habitant 0.21 1.11 0.01
## taux_changement -0.34 2.75 -0.01
## objectifs_2022_par_maison 0.39 3.91 0.01
## taux_feuillus -0.10 0.25 -0.02
## taux_feuillus_mixte -0.06 0.09 -0.01
Tests non paramétrique d’égalité des distributions de Wilcoxon : H0 : “égalité des lois”
Tests paramétriques d’égalité d’espérances, via ANOVA : H0 : “égalité des espérances”
## variables Diff_grp pval wilcoxon pval anova index
## 1 n -0.86 3.421148e-06 4.155634e-05 1
## 2 superficie_foret 0.26 5.350035e-01 2.217460e-01 2
## 3 taux_forets 0.13 5.955377e-01 5.808069e-01 3
## 4 évolution_nb_logements -0.57 2.903636e-03 5.745982e-03 4
## 5 Densité_pop -0.57 5.206464e-05 5.745982e-03 5
## 6 Part_résidences_principales_loc -0.47 3.723533e-02 2.631539e-02 6
## 7 part_maisons 0.68 4.086125e-04 1.204528e-03 7
## 8 part_résidences_principales -0.65 3.187365e-04 1.625350e-03 8
## 9 objectifs_2022 -0.75 3.640503e-04 4.091590e-04 9
## 10 nb_ménages_fiscaux -0.45 5.206464e-05 3.063655e-02 10
## 11 nb_personnes_menages_fiscaux -0.49 5.206464e-05 2.290039e-02 11
## 12 mediane_niveau_vie -0.73 3.187365e-04 4.716044e-04 12
## 13 taux_dossiers_habitant 0.21 5.399232e-01 3.286678e-01 13
## 14 taux_changement -0.34 3.101998e-03 1.157259e-01 14
## 15 objectifs_2022_par_maison 0.39 1.636951e-02 5.809527e-02 15
## 16 taux_feuillus -0.10 5.350035e-01 6.421966e-01 16
## 17 taux_feuillus_mixte -0.06 6.943308e-01 7.500522e-01 17
Groupe 1 : (+ rural)
## [1] "superficie_foret" "taux_forets"
## [3] "part_maisons" "taux_dossiers_habitant"
## [5] "objectifs_2022_par_maison"
Plus de primes, plus de fôrets de tout type, plus grande part de maison dans les résidences principales
Groupe 2 : (+ urbain)
## [1] "n" "évolution_nb_logements"
## [3] "Densité_pop" "Part_résidences_principales_loc"
## [5] "part_résidences_principales" "objectifs_2022"
## [7] "nb_ménages_fiscaux" "nb_personnes_menages_fiscaux"
## [9] "mediane_niveau_vie" "taux_changement"
## [11] "taux_feuillus" "taux_feuillus_mixte"
Plus de pop, meilleur médiane de niveau de vie, taux plus important de superficie de feuillus
Le taux de nouveaux appareils de type poêle est lié et anti corrélé aux taux de : bûches, nouveaux et anciens appoints, nouveaux et anciens aggréments, (montant de l’aide)
Lié et corrélé aux taux de : majoration, nouveaux et anciens principaux Buche : appoint +, principal -
Majorée : anti corrélé au montant de l’aide : effet Pays Voironnais ? Beaucoup de maj, prime + faible -> lié au cout total ttc
Taux de bûches lié et anti corrélé à : ancien et nouveau poêle, ancien principal, majoration
Lié et corrélé à : ancien foyer ouvert, ancien et nouveau appoint, ancien aggrément
-> Coude au niveau de 3 clusters
Critère de Calinski et Harabasz : prends en compte la taille de l’échantillon, le nombre de cluster, et les sommes des carres des distances intra et inter clusters : critère à maximiser
Optimal = 2 groupes.
## [1] 0.9152542
On prédit très bien les groupes à partir des anciens usages
Suite à l’acp, nous avons chercher à créer des groupes de communes, le choix de séparer en deux groupes semble le plus optimal, car il est plus simple à interpréter. De plus, la séparation entre les deux groupes se fait principalement sur la première dimension de l’ACP, or c’est sur cette dimension que la plupart des variables sont le mieux représentées.
Le premier groupe contient principalement des communes rurales et une vingtaine de communes urbaines de densité intermédiaire. Le deuxième groupe contient principalement des communes urbaines, et quelques communes rurales sous influence d’un pôle.
Les communes du premier groupe ont un taux plus fort de chauffage principal dans les anciens et nouveaux matériels (23 et 22%), ont 13 % de plus de pôele dans les noveaux matériels, ont en moyenne un taux de prime majorées plus fort (12%), et remplissent plus de réponses dans les raisons de changement d’appareil, par rapport au deuxième groupe.
Le deuxième groupe a un usage moins important des appareils (appoint, plaisir), avant comme après prime, et a un taux plus fort d’utilisation de la bûche dans les nouveaux appareils (15%), et des taux plus forts de chauffage d’appoint et d’aggréments, ainsi que de foyers ouverts, par rapport au premier groupe.
Il est possible que les usages des appareils influencent le type d’appareil et de combustible (Chauffage principal -> poêle à granulés). Or les usages peuvent être liés à la siutation économique de l’usager (ex : majoration de la prime).
Pour les variables supplémentaires, dans le premier groupe, il semble y avoir plus de demandes de primes par habitant, ainsi qu’une plus grande part de maison dans les résidences principales. Dans le deuxième groupe, il semble y avoir plus de population, une plus forte médiane de niveau de vie. Ce qui conforte la séparation rural / urbain des deux groupes. Les différences entre les taux de forêts sont très faibles (entre à et 2 %), et sont plus fort tantôt pour le groupe 1, tantôt pour le 2, dépendant de la variable.
Il semble que les différences de comportement entre les deux groupes soient plutôt dues aux caractéristiques socio-économique des communes.